Next-generation sequencing technologies have enhanced the scope of Internet-of-Things (IoT) to include genomics for personalized medicine through the increased availability of an abundance of genome data collected from heterogeneous sources at a reduced cost. Given the sheer magnitude of the collected data and the significant challenges offered by the presence of highly similar genomic structure across species, there is a need for robust, scalable analysis platforms to extract actionable knowledge such as the presence of potentially zoonotic pathogens. The emergence of zoonotic diseases from novel pathogens, such as the influenza virus in 1918 and SARS-CoV-2 in 2019 that can jump species barriers and lead to pandemic underscores the need for scalable metagenome analysis. In this work, we propose MG2Vec, a deep learning-based solution that uses the transformer network as its backbone, to learn robust features from raw metagenome sequences for downstream biomedical tasks such as targeted and generalized pathogen detection. Extensive experiments on four increasingly challenging, yet realistic diagnostic settings, show that the proposed approach can help detect pathogens from uncurated, real-world clinical samples with minimal human supervision in the form of labels. Further, we demonstrate that the learned representations can generalize to completely unrelated pathogens across diseases and species for large-scale metagenome analysis. We provide a comprehensive evaluation of a novel representation learning framework for metagenome-based disease diagnostics with deep learning and provide a way forward for extracting and using robust vector representations from low-cost next generation sequencing to develop generalizable diagnostic tools.
translated by 谷歌翻译
不断增加的材料科学文章使得很难从已发表的文献中推断化学结构 - 培训关系。我们使用自然语言处理(NLP)方法从聚合物文献的摘要中自动提取材料属性数据。作为我们管道的组成部分,我们使用240万材料科学摘要培训了一种语言模型的材料,该材料模型在用作文本编码器时,在五分之三命名实体识别数据集中的其他基线模型都优于其他基线模型。使用此管道,我们在60小时内从约130,000个摘要中获得了约300,000个物质记录。分析了提取的数据,分析了各种应用,例如燃料电池,超级电容器和聚合物太阳能电池,以恢复非平凡的见解。通过我们的管道提取的数据可通过https://polymerscholar.org的Web平台提供,该数据可方便地定位摘要中记录的材料属性数据。这项工作证明了自动管道的可行性,该管道从已发布的文献开始,并以一组完整的提取物质属性信息结束。
translated by 谷歌翻译
近年来,深度学习(DL)算法的使用改善了基于视觉的空间应用的性能。但是,生成大量的注释数据来培训这些DL算法已被证明具有挑战性。虽然可以使用合成生成的图像,但在实际环境中测试时,经过合成数据训练的DL模型通常容易受到性能降解。在这种情况下,卢森堡大学的安全,可靠性和信任(SNT)跨学科中心开发了“ SNT Zero-G Lab”,用于在模拟现实世界太空环境的条件下培训和验证基于视觉的空间算法。 SNT Zero-G实验室开发的一个重要方面是设备选择。从实验室开发过程中学到的经验教训,本文提出了一种系统的方法,将市场调查和设备选择的实验分析结合在一起。特别是,本文专注于太空实验室中的图像采集设备:背景材料,相机和照明灯。实验分析的结果表明,在太空实验室开发项目中选择有效的设备选择需要通过实验分析来称赞的市场调查。
translated by 谷歌翻译
已经证明,基于自我监督的学习(SSL)模型可以生成强大的表示,可用于改善下游语音任务的性能。可以使用几种最先进的SSL模型,并且这些模型中的每一个都优化了不同的损失,这会导致其功能互补的可能性。本文提出了使用此类SSL表示和模型的集合,该集合利用了各种预审预周化模型提取的特征的互补性质。我们假设这导致了更丰富的特征表示,并显示了ASR下游任务的结果。为此,我们使用了三个SSL模型,这些模型在ASR任务上显示出了出色的结果,即Hubert,Wav2Vec2.0和小波。我们使用从预训练的模型获得下游ASR任务的嵌入方式来探索用于ASR任务的模型集合和功能集合。我们使用LiblisPeech(100H)和WSJ数据集的单个模型和预训练的功能获得了改进的性能,用于下游任务。
translated by 谷歌翻译
自我监督的学习(SSL)在各种与语音有关的下游任务(包括自动语音识别(ASR))中表现出巨大的成功。 SSL模型的输出嵌入被视为语音信号的强大短期表示。但是,在ASR任务中,主要目标是获得正确的声学单元,字符或字节对编码(BPE)的正确顺序。通常,对于ASR等序列到序列任务,编码器解码器架构非常出色。因此,在本文中,我们提出了一个新的范式,该范式在自学学习过程中利用解码器的力量。我们使用隐藏的单位Bert(Hubert)SSL框架来计算编码器的常规掩蔽预测损失。此外,我们在SSL框架中引入了解码器,并为解码器提出了目标准备策略。最后,我们使用多任务SSL设置,其中我们共同优化编码器和解码器损耗。我们假设SSL模型中的解码器的存在有助于它学习基于声学单元的语言模型,这可能会改善ASR下游任务的性能。我们将我们提出的SSL模型与Hubert进行了比较,并通过对各种LibrisPeech子集进行填充,在ASR上的性能相对相对提高了25%。
translated by 谷歌翻译
我们研究了复杂几何物体的机器人堆叠问题。我们提出了一个挑战和多样化的这些物体,这些物体被精心设计,以便要求超出简单的“拾取”解决方案之外的策略。我们的方法是加强学习(RL)方法与基于视觉的互动政策蒸馏和模拟到现实转移相结合。我们的学习政策可以有效地处理现实世界中的多个对象组合,并展示各种各样的堆叠技能。在一个大型的实验研究中,我们调查在模拟中学习这种基于视觉的基于视觉的代理的选择,以及对真实机器人的最佳转移产生了什么影响。然后,我们利用这些策略收集的数据并通过离线RL改善它们。我们工作的视频和博客文章作为补充材料提供。
translated by 谷歌翻译